其他
中台技术:十二年架构演进之路
编者按:从2016年诞生起,“中台”概念就一路火热至今,对互联网与金融行业数字化转型产生了极为深远的影响。作为“中台”概念的提出者和先行者,阿里巴巴用12年的实践探索了中台能力建设和数据应用。在不断升级和重构的过程中,阿里巴巴的中台建设经历了从分散的数据分析到数据中台化能力整合,再到全局数据智能化的时代。
阶段一:业务百花齐放,发现数据价值
阶段二:业务垂直小闭环,数据孤岛显现
阶段三:数据中台支撑业务可持续发展
数据是谁的? 谁来用? 谁来管控?数据质量由谁负责? 平台团队和业务团队是两个团队,成本关系是什么? 中台方法论,如何落地在数据平台落地?如何治理? 数字增长很快,超过业务增长,怎么办? 一张核心表12PB,每个部门复制1份,一年几千万就没了怎么办? 我知道要删除一半的数据,但到底是哪一半?
阶段四:云上数据中台与业务伴生
挑战一:数据资产管理体系对于数据资产来说,首先要解决的一个问题是:什么叫企业的数据资产?阿里巴巴的每个BU都有一个自己事业部的数据资产全景图,我们通过一张图统管阿里巴巴99.9%计算数据资产,每个部门的存储计算成本将全部量化,直接展现在管理者的面前。 第二个问题:如何看资产?对于企业而言,资产难道就是一个个成本的数字吗?阿里巴巴通过数据资产的透视,让管理者知道我自己的数据来源于哪,服务给谁,谁又是我最好的合作伙伴,同时又可以满足数据流动审计的需求。 第三个问题:如何进行资产的规模化?新的业务合并/收购/创新,如何将这套资产体系快速地复制?在DataWorks等工具中提供数据中台建模工具,能够为数据中台建设提供规范化图纸,针对不同的业务域进行划分,进行智能建模,让新业务快速复用之前成熟的数据架构,达到资产规模化的能力。
挑战二:数据质量体系对于数据质量来说,首先要先解决的一个问题是:事前质量如何定义?金融行业经常提到一个概念叫对账,阿里巴巴数据也要对账,针对超过千万级别数据表的对账问题,我们提了“质量规则”的概念。700多万质量规则,每天新增1万多条,人工要怎么配?阿里巴巴建设了37种规则模板,通过智能规则推荐匹配,采纳率达到75%。 第二个问题:事中质量如何执行?700多万条质量规则需要耗费大量计算资源怎么办?通过什么方式来降低成本?我们通过智能化技术建设了数据质量调度引擎、ETL引擎,数据变更后实时触发质量监控,采用优先级策略,进行空闲运行。 第三个问题:事后质量如何自动化?规则写死了,但数据是活的,遇到周期性波动和变化怎么办?我们在数据质量建设的时候融入很多人工智能的技术,通过机器学习方式学习数据生成的样子,能够对动态阈值进行智能预测,通过算法匹配周期性波动。
挑战三:数据安全体系对于数据安全来说,要解决如何降低使用成本,提高易用性;如何覆盖数据全生命周期;如何做权限管控;如何数据脱敏,如何识别敏感行为进行数据溯源等问题,阿里巴巴内部沉淀了超过20项不同的安全治理规则,这些规则最终能够帮助平台在满足业务高速增长的情况下同时满足个人合规的要求。
挑战四:数据治理体系当数据治理进入深水区,数据成本增速如何不超过业务增速,如何调动全员治理的积极性,如何培养成本意识等都变得十分重要。 在阿里巴巴,数据治理是引擎、平台和人的互相配合,引擎对算力和成本极致追求,持续打破快速增长的数据计算与成本增长的线性关系,平台通过存储健康分、计算健康分成为集团各团队数据治理战役的核心指标,推动人做数据治理和管理,利用平台全链路工具,构建数据治理技术运营体系。 可以看出,在12年的数据平台建设期间,阿里巴巴从数据的资产、质量、安全、治理等多个纬度沉淀出了数据中台产品化的能力。
趋势一:一体两面的湖仓一体
趋势二:数据仓库进入“自动驾驶”时代
趋势三:所查即所得,基于自然语言的智能数据查询
趋势四:数据即智能,AI工程化的基础能力
关于数据中台的深度思考与总结(超级干货)
2021-11-04
解析OpenShift的存储规划
2021-11-03
亿级流量架构之分布式事务思路及方法
2021-11-03
终于明白了 DevOps 与 SRE 的区别!
2021-11-09
民生银行 IT运维故障管理 可视化案例
2021-11-09
双十一的亿级流量架构服务降级,写得太好了!
2021-11-10
美团基于知识图谱的剧本杀标准化建设与实践
2021-11-08
浅谈 Kubernetes 服务发现
2021-11-08
网站扛住 100 亿次请求?我们来压测试一试
2021-11-05